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Адаптация к голосу нового диктора на примере 
спонтанной речи из корпуса АКУЕМ 


Стаття присвячена питанням адаптації до голосу нового диктора попередньо створених систем 
пофонемного розпізнавання мовлення. Представлені результати трьох експериментів, проведених з 
використанням даних мовленнєвого корпусу АКУЕМ. Надається порівняльний аналіз з результатами 
попередніх досліджень з адаптації. 

Ключові слова: моделі фонем, адаптація, розпізнавання, лінійні перетворення, класи регре- 
сії, навчання. 
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Статья посвящена вопросам адаптаций к голосу нового диктора предварительно созданньжх систем 
пофонемного распознавания речи. Представлень  результать: трех зкспериментов, проведенньх с 
использованием данньх речевого корпуса АКУЕМ. Приводится сравнительньшй анализ с результатами 
предшествующих исследований по адаптации. 

Ключевье слова: модели фонем, адаптация, распознавание, линейньгю преобразования, 
классьт регрессиий, обучение. 


Вступ 


У попередніх роботах була проведена серія експериментальних досліджень з 
адаптації, застосовані різні підходи ||, |2|. Слід зазначити, що вони були проведені 
в рамках пофонемного послівного розпізнавання. Всі диктори, записи котрих вико- 
ристовували в експериментах, наговорювали визначені певні слова, які апроксимують 
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фонетичне розмаїття української мови. При цьому слова вимовлялися загалом розбі- 
рливо, в нормальному темпі, окремо одне від одного. Диктори базового кооперативу 
вимовили більш ніж дванадцять тисяч реалізацій слів у загальній навчальній вибірці. 
Розпізнавання було послівним. Використовувалося два достатньо якісних мікрофони, 
умови запису відповідали офісним. Словник використовувався невеликий - біля 2,5 
тисячі слів. Кількість дикторів також була невеликою - 67. У даній роботі представ- 
влені результати експериментальних досліджень, котрі були отримані дещо в інших 
умовах і не з окремими словами, а зі злитим, здебільшого спонтанним мовленням. 

Метою роботи є продовження досліджень з адаптації в більш складних умовах 
роботи з мовленнєвим матеріалом. 


Лінійні перетворення при адаптації акустичних моделей 


При створенні системи розпізнавання сигналів мовлення необхідно провести проце- 
дуру навчання розпізнаванню. При пофонемному розпізнаванні кожна фонема має свою 
акустичну генеративну модель, котра являє собою певну кількість станів з певними пере- 
ходами між ними |1 |. При цьому кожний стан моделі має свої ймовірнісні параметри - 


я т РАЕЄНИ 
середній вектор спостереження // - Їш ПР 7 ЗХОФУН и, | та коваріаційну матрицю 
Х розмірністю и х п, де п - розмірність вектора первинних ознак сигналу. Ці / та 5 є 


параметрами и-вимірного нормального закону розподілу. Стан моделі може задаватися 
декількома параметрами (парами), то тоді говорять, що стан описується сумішшю гаусіа- 
нів (нормальних розподілів). Проведення процедури навчання передбачає конкретне об- 
числення за допомогою ітераційних процедур саме цих ймовірнісних параметрів для всіх 
фонем у системі розпізнавання. Для двох систем розпізнавання, навчених на двох різних 
дикторів, ці ймовірнісні параметри будуть різнитися між собою, чим і пояснюється неза- 
довільна точність розпізнавання якогось диктора на чужій системі. 

Але цілком можливо обчислити лінійні перетворення, які переводять початкові 
середні вектори та коваріаційні матриці опорного диктора або кооперативу дикторів 
у середні вектори та коваріаційні матриці нового диктора. Лінійне перетворення для 
середніх векторів записується у вигляді: 


йзЙе. а) 
де й - середній вектор нового диктора, Й/ є матрицею, розмірністю п х (п 1), 


Є - середній розширений вектор опорного диктора, 


зано 0) 


Лінійне перетворення коваріаційних матриць записується у вигляді: 


У-НУН" З) 
, 

де Н - матриця перетворення коваріаційної матриці 2, опорного диктора, 
розмірністю - п х п. 

Щоб покращити гнучкість процесу адаптації, можна визначити відповідну множину 
базових класів, яка залежатиме від кількості доступних адаптаційних даних |3|. Якщо 
доступна мала кількість адаптаційних даних, то тоді буде генеруватися загальне 
адаптаційне перетворення. Загальне перетворення застосовується до кожної компо- 
ненти гаусіанів у множині моделей. Одначе, якщо адаптаційних даних стає більше, то 
можливо покращити адаптацію шляхом збільшення кількості перетворень. Тоді 
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кожне перетворення стає більш конкретним Й застосовується до певної групи гау- 
сіанів. Наприклад, гаусіани можуть бути згруповані в широкі фонетичні класи: пауза, 
голосні, назальні, фрикативні тощо. В цьому випадку адаптаційні дані повинні вико- 
ристовуватися для побудови більш конкретних перетворень широких класів, щоб засто- 
сувати ці перетворення до цих угруповань. 

Зв'язування кожного перетворення через множину компонентів суміші дозволяє 
адаптувати й ті розподіли, для котрих узагалі не було спостережень. У такому процесі 
всі моделі можуть бути адаптовані й адаптаційний процес динамічно покращується, 
як тільки з'являється більше адаптаційних даних. 

Дерево класів регресії побудовано таким чином, щоб об'єднати компоненти, 
котрі близькі в акустичному просторі, й, таким чином, схожі компоненти будуть 
перетворюватися схожим способом. Зазначимо, що дерево побудовано з викорис- 
танням індивідуальної дикторонезалежної множини моделей фонем, а значить - не 
залежить від будь-якого нового диктора. Термінальні вузли або листки дерева визна- 
чають кінцеві групи компонентів й називаються базовими класами (класами регресії). 
Кожний гаусіан у множині моделей фонем належить до одного певного базового класу. 

На рис. 1 наведено простий приклад бінарного дерева регресії з чотирма базо- 


вими класами, позначеними як (С,,С.,С,,С, ). На діаграмі зображено неперервні 


стрілки та неперервні околи й це означає, що адаптаційних даних, пов'язаних із цим 
класом, достатньо для побудови матриць перетворення. Пунктирні стрілки та околи по- 
значають класи, для яких недостатньо адаптаційних даних. У цьому прикладі вузли 6 та 7 
не мають достатньо даних; але у вузлі 3, що є батьківським для 6 та 7, даних достатньо. 
Аналогічно для вузлів 5 та 2. Кількість даних, що визначається як достатня (поріг), 
встановлюється як опція вручну в програмі. 


Рисунок 1 - Бінарне дерево регресії 


Перетворення генеруються тільки для тих вузлів, котрі: 

1) мають достатньо даних; 

2) є або термінальними вузлами (тобто базовими класами), або мають нащадків з 
недостатньою кількістю даних. 

У прикладі, котрий наводиться на рис. 1, перетворення генеруються лише для вузлів 


регресії під номерами 2, 3 та 4, й ці перетворення позначимо відповідно Й/,, Й/, та Й/,. 
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Звідси, коли потрібно мати перетворену множину моделей фонем, матриці перетворення 
(для середніх та дисперсій) застосовуються до компонентів гаусіанів у кожному базовому 
класі наступним чином: 


У, -з ІС.) 
Р, з СС, 
У, оС, 


Тут цікаво відзначити, що випадок загальної адаптації, схожий на випадок, 
коли дерево має лише один кореневий вузол. 


Експериментальна база 


Як було зазначено у вступі, в даній роботі експерименти проводилися переважно 
зі спонтанним мовленням. Воно полягає в тому, що диктори, записи котрих викори- 
стовували в експериментах, говорили вільно або читали, не спеціально для експе- 
риментів, порядок слів у їхній мові був вільний, деякі слова вони повторювали й не 
завжди повністю, не завжди ясно й чітко, говорили з різним ступенем емоційності, в 
різному темпі, при цьому мовлення було злитим. Розпізнавання також проводилося 
для злитого мовлення. Каналів запису було багато, вони різнилися між собою за ха- 
рактеристиками. Записи дикторів були не однакового обсягу - від коротких за часом до 
довгих. Використовувалися записи з теле- та радіоефіру. Всі ці записи були зібрані в так 
званий корпус АКУЕМ - акустичний корпус українського ефірного мовлення |4|. В цьо- 
му корпусі словник налічував 71 545 словоформ, близько 60 годин аудіозаписів, у котрих 
міститься мовлення біля 2000 дикторів. Слід зазначити, що диктори говорили й такі 
слова, котрих не було в словнику взагалі, на відміну від |1|. Це ускладнювало ситуацію 
тим, що автоматично понижувало надійність розпізнавання. Більшість дикторів предста- 
влена короткими записами, тоді як у 150 дикторів довжина записів становить більш 
як 10 хвилин. З усього вищесказаного випливає, що, взагалі, умови для розпізнаван- 
ня в даному випадку менш сприятливі, ніж у попередніх дослідженнях. 

Кількість фонем, як і в попередніх дослідженнях, становила 55 елементів. Фо- 
неми моделюються трьома станами Марківського ланцюгу без пропусків. 


Попередні експериментальні дослідження 
для визначення значення порогу достатності 
адаптаційних даних 


Взагалі, було проведено три експерименти з, відповідно, трьома різними Контроль- 
ними групами дикторів. 

Контрольна група Мо І складалася з дикторів, котрі брали участь у навчанні. 
Тобто, записи промов цих дикторів були розділені на дві частини: записи з першої 
частини повністю використовувалися при навчанні системи розпізнавання (це була 
навчальна вибірка (НВ)), записи з другої частини використовувалися для тестування 
та адаптації (це була незалежна вибірка (НезВ) цих дикторів). Мета цього експери- 
менту - експериментально з'ясувати, як залежать результати адаптації від кількості 
лінійних перетворень, котрі застосовуються при цій самій адаптації. Тобто, кількість 
адаптаційних даних не змінювалася, АВ залишалася тою самою, а змінювалось вручну 


«Штучний інтелект» 2013 Хе3 287 


зю| Юхименко О.А., Пилипенко В.В., Селюх Р.А. 


значення порогу достатності даних у дереві класів регресії. Чим більше це значення, 
тим менше буде лінійних перетворень на всю систему при адаптації. Приймалося 4 
різних значення порогу - 2000, 1000, 500, 200. Будувалися різні дерева класів регресії - 
з 1,2, 3,4, 6, 8, 10, 13, 16, 20, 25 та 30 термінальними вузлами. Для кожного дерева, в 
залежності від значення порогу, обчислювалася різна кількість лінійних перетворень. 
Попутно необхідно було з'ясувати питання, в якому випадку результати адаптації бу- 
дуть кращі: коли адаптаційну вибірку (АВ) брати з НВ, або коли з НезВ? Результати 
даного експерименту зображені на рис. 2. 
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Рисунок 2 - Усереднена точність розпізнавання дикторів 
із контрольної групи ХО І до та після адаптації 


Пояснення: КВ 2000 - це значить, що АВ вибиралася з НезВ, значення порогу 2000; 
НВ 500 - АВ вибиралася з НВ, значення порогу 500. Коли кількість термінальних 
вузлів - 0, то це означає, що розпізнавання проводилося без адаптації. Досить ясно видно, 
що результати адаптації кращі, коли АВ вибирають з НезВ (при порогах 2000 та 1000), 
при порогах 200 та 500 отримуємо досить непевний результат. Виходило, що просте 
збільшення кількості перетворень (від пониження порогу) без збільшення обсягу АВ не 
призводить до автоматичного покращення розпізнавання. Можна констатувати, що збіль- 
шення точності розпізнавання при виборі АВ з НезВ сягає майже 490 (при порозі 2000), 
при виборі АВ з НВ сягає майже 3Уб (при порозі 500, 1000, 2000). Результати адапта- 
ції при виборі АВ з НВ менш розкидані (окрім порогу в 200). Дослідження проводи- 
лися при кількості гаусіанів у сумішах станів моделей фонем - 16. 

У другому експерименті контрольна група Мо 2 складалася з дикторів, котрі не 
брали участі в навчанні. Тобто, записи промов цих дикторів не використовувалися при 
навчанні системи розпізнавання, вони мали лише НезВ. Мета - експериментально 
з'ясувати, чи будуть результати адаптації для групи, що не брала участі в навчанні, кра- 
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щими, ніж для групи, котра брала участь у навчанні. Одночасно необхідно було з'ясувати 
питання: як залежать результати адаптації при збільшенні кількості гаусіанів у сумішах 
станів моделей фонем? Оскільки в попередньому експерименті при значенні порогу 200 
отримували незадовільний результат, то тут його не використовували. Дерева класів 
регресії - ті самі. Результати даного експерименту зображені на рис. 3. 
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Рисунок 3 - Усереднена точність розпізнавання дикторів із контрольної 
групи Хо 2 до та після адаптації при 16 та 128 гаусіанах у моделях фонем 


Пояснення: Г128 2000 - це значить, що гаусіанів в моделях фонем 128, значення 
порогу 2000. Чітко видно, що при 128 гаусіанах точність розпізнавання вища як до, так 
й після адаптації, результати менш розкидані. 

Зростання точності - до 4,596 (поріг 2000) при 128 гаусіанах, до 5,996 (поріг 
500, 1000) при 16 гаусіанах. 

Порівнюючи з результатами адаптації першого експерименту можна зробити ви- 
сновок, що при 16 гаусіанах результати адаптації покращилися -- 5,99Уо проти 490, відносне 
покращення також більше, хоча при цьому говорити про видатну різницю не доводиться. 


Результати експериментальних досліджень на матеріалі 
виступів депутатів Верховної Ради України 


Контрольна група ХО 3 складалася з дикторів, котрі також не брали участі в навчан- 
ні. Ці диктори - депутати Верховної Ради України (записи їхніх промов також знахо- 
дяться в АКУЕМ). Вони говорили зі специфікою парламентських промов і зі 
специфікою записів цих промов у парламентській залі. Мета - знову-таки експеримен- 
тально з'ясувати, чи будуть результати адаптації для групи, що не брала участі в навчанні, 
кращими, ніж для групи, котра брала участь у навчанні. Також була поставлена задача: 
проводити адаптацію не для однієї певної АВ для кожного диктора, а для декількох різних 
за обсягом АВ, щоб оцінити якість адаптації в залежності від обсягів АВ та поставити 
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дикторів у рівні умови. АВ для всіх дикторів обиралися обсягом в 30, 60 та 90 секунд. Де- 
рев класів регресії було побудовано трохи менше. Результати даного експерименту 
зображені на рис. 4, 5, 6. 
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Рисунок 5 - Усереднена точність розпізнавання дикторів з контрольної групи Мо 3 
до та після адаптації при 16 та 128 гаусіанах у моделях фонем 
при значенні порога 1000 
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Рисунок 6 - Усереднена точність розпізнавання дикторів із контрольної групи Мо 3 
до та після адаптації при 16 та 128 гаусіанах у моделях фонем 
при значенні порога 2000 
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Пояснення: Г16 60с - гаусіанів у моделях фонем 16, обсяг АВ - 60 секунд. 

З рисунків видно, що при збільшенні обсягу АВ росте точність розпізнавання після 
адаптації. Результати при АВ в 30 секунд гірші за результати при АВ в 60 та 90 секунд, у 
свою чергу АВ в 60 та 90 секунд при 128 гаусіанах і порозі 500 та 1000 дають між собою 
зворотній результат. Для подальших експериментів було обрано значення порогу достат- 
ності даних 2000, оскільки майже в усіх випадках при ньому досягається найбільша 
точність і результати більш стабільні при зміні кількості класів у дереві регресії. В 
цьому випадку при 128 гаусіанах маємо зростання точності після адаптації від 4,590 
(при 30с) до 6,590 (при 90с), при 16 гаусіанах - від 59» (при 30с) до 7906 (при 90с). 
Спостерігається збільшення точності розпізнавання порівняно з контрольною гру- 
пою Мо 1. 


Висновки 


Отже, експерименти наявно показали доцільність застосування адаптації до го- 
лосу нового диктора. 

Було з'ясовано, що при збільшенні гаусіанів (тут конкретно від 16 до 128) спо- 
стерігається покращення точності розпізнавання. Одначе після адаптації більший ріст 
точності мав місце саме при 16 гаусіанах. 

Для дикторів, що брали участь у навчанні, ріст точності розпізнавання після адапта- 
ції був дещо більший тоді, коли АВ вибиралася з НезВ. Для дикторів, що не брали участі 
в навчанні, ріст точності розпізнавання після адаптації був дещо більший у порівнянні з 
дикторами, що брали участь у навчанні. 

Зменшення значення порогу призводить до збільшення кількості лінійних пере- 
творень. Експерименти показали, що просте зменшення значення порогу для збіль- 
шення кількості перетворень взагалі не призводить до автоматичного покращення точ- 
ності. Це стається, очевидно, з причини погіршення статистик внаслідок зменшення кіль- 
кості спостережень при зменшенні значення порогу. 

Експеримент ХО 3 показав, що, взагалі, бажано брати АВ обсягом не менш за 
60 секунд, хоча й 30 секунд давали зростання точності. Збільшення АВ покращує 
результати адаптації, принаймні до якогось моменту. Задача на майбутнє - з'ясувати, 
коли наступає цей момент, тобто такі обсяги АВ, що подальше нарощування АВ не дає 
збільшення точності розпізнавання. 

Експерименти представили, що ми маємо впевнене зростання надійності 
розпізнавання після адаптації біля 4 - 590, хоча в певних варіантах (при АВ в 90с) було й 
більше. У роботі (1) початкове розпізнавання було помітно більшим - майже 9090, 
середня надійність розпізнавання самих дикторів базового кооперативу сягала 94.,329/. 
Після адаптації тоді було досягнуто до 69» зростання надійності, отже відносне покращен- 
ня було також суттєво більшим. Але все це відбулося, безсумнівно, внаслідок загалом 
більш сприятливих умов для розпізнавання. 
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Лааріайоп іо Меуг Аппоипсет Уоісе Їог 5ропіапеоцз УреесПі 
Пот АКСЕМ Уреесп Согри5 


Те агіїсіє 15 сопіїпиайоп ої 5егіе5 ої ехрегітепізя оп адаріайоп о уоісе ої пеуу 
аппоипсег ої їБе ргейтіпагу сгеаїед зузіетя ої рпопете гесоєпійоп. Ш'їп ргеміоиц5 могк5 
аз иппії8 ої зреесії зіспая м/еге Бе і5оЇагед угогаз, їп Ше5е ехрегітепіз іпіогтайоп має 
и5ед бот Ше уосаї согри5 ої АКОЕМ (тозіу, зропіапеоц5 зрееср). 

ТРе ргезепіеа гезиіїв ої ШФгее ехрегітепіє деаї утіб Бе діНегепі 51765 ої адаріайоп 
5еї5 ап рагатеїегз ої аЧаріабоп. 

А сотрагайуе апаїузіз 15 сїуеп улії Ше гезиія ої ргеміоця аЧдаріайоп ге5еагсрез. 

ТЬе гезиіі5 ої ехрегітепіз 5Поуу ап іпргоуетепі гепабійку ої гесоєпійоп абег 
аЧаріайоп іо уоісе ої а пему 5зреаКег. 


Стаття надійшла до редакції 09.04.2013. 


292 «Искусственньвй интеллект» 2013 Ме 3 


